最终用户如何提供反馈,如果部署的结构化预测模型产生不一致的输出,忽略人类语言的结构复杂性?这是一个新兴主题,最近合成或约束设置的进展,下一个大的飞跃需要在现实世界中进行测试和调整模型。我们呈现了一个新的DataSet,interscript,包含有关已部署模型的用户反馈,该模型生成复杂的日常任务。依据包含8,466个数据点 - 输入是可能是错误的脚本和用户反馈,输出是修改的脚本。我们分散了两种用例,这可能会在互动学习中显着推进最先进的。数据集可用于:https://github.com/allenai/interscript。
translated by 谷歌翻译